Data Quality Service (DQS) 資料品質服務是一個資料清理的服務流程,避免 GIGO (Garbage in Garbage out) 的資料服務機制。
SQL Server 提供了一個資料品質服務 Data Quality Service,確保我們的資料數據都能夠滿足我們所需要的目標,提供完整的、有效的、一致性的、正確的資料,才能讓接下來的資料分析或是學習模型能夠得到正確的資訊。
資料的品質太低,將會導致「Garbage in Garbage out」,讓我們最後的資料分析結果不正確,有偏差,造成差勁的決策,無效的資訊挖掘,甚至根本無法執行資料分析作業等。
Data Quality Service (DQS) 資料品質服務主要包含兩大步驟:
• Build : 建立知識庫 (Knowledge Base) 的 知識管理 (Knowledge Management) 程序,新增或管理資料品質的知識
• Use : 使用知識庫中的知識來建議資料異動的 資料品質專案,提供給資料處理作業,不論是萃取、清理、轉換、或是載入等,讓資料處理整合作業能夠得到高品質的數據。
SQL Server Data Quality Service (DQS) 是一種以知識來驅動的資料清理產品服務,它提供了:定義個別的資料,修正資料,標準化資料,豐富資料,比對資料等功能機制。DQS 更提供了收集累積各種資料清洗和比對的知識,更新必要的清理比對資料的知識,使用內建的清洗比對資料的功能和演算法,提供一致性的資料清洗邏輯,以及自動清洗資料的作業。
資料品質服務的開發建置方法大致如下:
透過資料品質服務所建立的領域知識庫,我們可以讓我們的資料管家,資料庫管理師,商業分析師,資料科學家等,不論是使用資料品質服務來支援資料處理作業,還是使用資料品質服務知識庫來整合資料分析服務功能,Data Quality Service 都能夠讓我們持續累積和共享資料品質管理的相關知識,大大整合了企業組織的資料科學分析服務。
PS : Data Quality Service (DQS) 資料品質服務能夠提供 SSIS 在 ETL 資料處理的時候自動地確保資料品質,也提供 Master Data Service (MDS) 在主檔資料做同步和比對時的資料品質整合服務。